Pretrained Transformers achieve state-of-the-art performance in various code-processing tasks but may be too large to be deployed. As software development tools often incorporate modules for various purposes which may potentially use a single instance of the pretrained model, it appears relevant to utilize parameter-efficient fine-tuning for the pretrained models of code. In this work, we test two widely used approaches, adapters and LoRA, which were initially tested on NLP tasks, on four code-processing tasks. We find that though the efficient fine-tuning approaches may achieve comparable or higher performance than the standard, full, fine-tuning in code understanding tasks, they underperform full fine-tuning in code-generative tasks. These results underline the importance of testing efficient fine-tuning approaches on other domains than NLP and motivate future research in efficient fine-tuning for source code.
translated by 谷歌翻译
用于无线多输入多输出(MIMO)系统的通道解码,通道检测,信道评估和资源管理是可以成功应用机器学习(ML)的问题的所有问题。在本文中,我们研究了几种方法来解决一定的预编码方案估算谱效率(SE)值的问题,优选在最短的时间内。在平均平均百分比误差(MAPE)方面的最佳结果是通过梯度升高分类特征,而线性模型展示了更差的预测质量。神经网络同样地表现为渐变升压,但由于超参数调谐和频繁再培训,它们更具资源和耗时。我们研究了所提出的算法在四极针模拟器产生的广泛情景中的实际适用性。在几乎所有场景中,使用渐变升压和神经网络实现的MAPE小于10 \%。
translated by 谷歌翻译
培训具有批量标准化和重量衰减的神经网络已成为近年来的常见做法。在这项工作中,我们表明它们的结合使用可能导致优化动态的令人惊讶的周期性行为:培训过程定期表现出稳定,然而,不会导致完全发散但导致新的培训期。我们严格研究了从经验和理论观点的发现的定期行为基础的机制,并分析了实践中发生的条件。我们还证明,周期性行为可以被视为在批量归一化和体重衰减的训练中进行两种先前反对的视角的概括,即平衡推定和不稳定的推定。
translated by 谷歌翻译
深度神经网络通过解决了许多以前被视为更高人类智能的任务解锁了广泛的新应用。实现这一成功的一个发展之一是由专用硬件提供的计算能力提升,例如图形或张量处理单元。但是,这些不利用神经网络等并行性和模拟状态变量的基本特征。相反,它们模拟了依赖于二元计算的神经网络,这导致不可持续的能量消耗和相对低的速度。完全平行和模拟硬件承诺克服这些挑战,但模拟神经元噪声的影响及其传播,即积累,威胁到威胁这些方法无能为力。在这里,我们首次确定噪声在训练的完全连接层中包含噪声非线性神经元的深神经网络中的噪声传播。我们研究了添加剂和乘法以及相关和不相关的噪声,以及开发预测因对称深神经网络的任何层中的噪声水平的分析方法,或者在训练中培训的对称深神经网络或深神经网络。我们发现噪声累积通常绑定,并且添加附加网络层不会使信号与超出限制的信噪比恶化。最重要的是,当神经元激活函数具有小于单位的斜率时,可以完全抑制噪声累积。因此,我们开发了在模拟系统中实现的完全连接的深神经网络中的噪声框架,并识别允许工程师设计噪声弹性新型神经网络硬件的标准。
translated by 谷歌翻译